Модель от DeepSeek-Ai с продвинутыми возможностями рассуждений и агентскими функциями, сочетающая высокую вычислительную эффективность с производительностью на уровне GPT-5. Благодаря архитектуре разреженного внимания (DSA) и уникальной механике «мышления внутри вызова инструментов», модель идеально подходит для создания автономных агентов, обеспечивая баланс между скоростью, затратами ресурсов и сложностью решаемых задач.
Специализированная версия DeepSeek-V3.2 для глубоких рассуждений достигающая уровня GPT-5 и Gemini-3.0-Pro в решении сложных задач в области олимпиадной математики и программирования. Модель не поддерживает вызов инструментов, но обладает неограниченной глубиной «мышления», которая и позволяет ей добиваться феноменальных результатов в обозначенных узкоспециализированных областях знания. DeepSeek-V3.2-Speciale стала первой открытой моделью, достигшей золотых медалей на крупнейших международных олимпиадах по математике и информатике.
Флагманская и самая большая на момент выхода русскоязычная instruct-модель на базе архитектуры Mixture-of-Experts (MoE) с 702B общих и 36B активных параметров. Модель интегрирует Multi-head Latent Attention (MLA) и Multi-Token Prediction (MTP), обеспечивая высокую пропускную способность при инференсе и оптимизирована для работы в fp8. GigaChat 3 Ultra Preview работает с контекстом в 128К токенов, демонстрирует сильные результаты на задачах генерации текста, программировании, математики и обеспечивает наиболее глубокое понимание русского языка и культуры.
Компактная диалоговая MoE‑модель семейства GigaChat с 10 млрд общих и 1,8 млрд активных параметров, оптимизированная под высокую скорость инференса и локальный/высоконагруженный продакшен (упрощенное наименование GigaChat 3 Lightning). По качеству понимания русского языка она превосходит популярные модели масштаба 3–4B, при этом работает существенно быстрее.
HunyuanVideo-1.5 — это модель генерации видео по тексту (text-to-video) и изображению (image-to-video) с 8,3 млрд параметров, обеспечивающая высокое качество видео при относительно низких вычислительных затратах. Она разработана для работы на потребительских GPU, что делает её доступной для разработчиков и создателей контента.
Модель на основе корректирующего потокового трансформера с 32 миллиардами параметров, разработанная для генерации, редактирования и комбинирования изображений на основе текстовых инструкций. Поддерживает задачи с открытым исходом, такие как генерация изображений по тексту, редактирование с одиночным референсом и многореференсное редактирование, без необходимости дополнительной настройки. Обучена с использованием метода дистилляции с подсказками для повышения эффективности, оптимизирована для исследовательских и творческих задач при условии некоммерческого использования.
Компактная мультимодальная модель от Baidu, построенная на новаторской архитектуре гетерогенной архитектуре Mixture-of-Experts (MoE), отделяющую параметры для текстовых и визуальных экспертов. На инверенсе активируются только 3 миллиардов параметров при общем размере модели в 28 миллиардов параметров. Модель представляет собой обновленную версию базовой ERNIE-4.5-VL-28B-A3B, специально оптимизированную для задач мультимодального рассуждения через режим "мышления". Поддерживает работу с изображениями, видео, визуальную привязку (grounding) и вызов инструментов при нативной максимальной длине контекста 131K токенов и выгодно отличается умеренными требованиями к вычислительным ресурсам.
Самая большая на момент выхода открытая reasoning-модель от Moonshot AI с архитектурой Mixture-of-Experts (1T параметров, 32B активных), способная выполнять 200–300 последовательных вызовов инструментов без деградации качества, при этом чередовать вызовы функций с цепочками рассуждений. Модель поддерживает контекст 256K токенов, оснащена нативной INT4-квантизацией, что способствует ускорению инференса практически без потери точности и использует механизм Multi-Head Latent Attention (MLA) для эффективной работы с длинными последовательностями. Kimi K2 Thinking устанавливает новые рекорды среди open-source моделей, а по целому ряду бенчмарков превосходит лучшие коммерческие проекты такие как GPT-5 и Claude Sonnet 4.5.
Reasoning-версия флагманской 32-миллиардной danse модели из семейства Qwen3-VL оптимизированная для многоэтапного мышления и решения сложнейших мультимодальных задач, требующих глубокого анализа и логических выводов на основе визуальной информации. Поддерживает нативный контекст 256K (с возможностью увеличения до 1М) и достигает state-of-the-art среди мультимодальных, рассуждающих моделей схожего размера.
Всего 2 миллиарда параметров, контекст 256К и возможность edge инференса. Это одна из самых маленьких visual reasoning-моделей, специализирующаяся на многоступенчатом рассуждении при визуальном анализе изображений и видео, то есть она почти буквально способна "думать, глядя на изображения". В отличие от Instruct-версии, эта модель генерирует развернутые цепочки мышления перед финальным ответом, что повышает точность, но сказывается на скорости работы.
Самая компактная модель из семейства мультимодальных Qwen3-VL. 2 миллиарда параметров, dense архитектура, оптимизирована для быстрых диалоговых систем и запуска на edge-устройствах. При этом модель сохраняет и поддерживает все передовые достижения серии: качественное понимание изображений, видео и текста, поддержку OCR на 32 языках, позиционирование объектов, тайминг и нативный контекст в 256K токенов.
Мощная мультимодальная модель с 32 миллиардами параметров и нативной поддержкой 256K контекста, обеспечивающая state-of-the-art качество мультимодального понимания. Модель превосходит на большинстве бенчмарков версию предыдущего поколения с 72B параметров, а также схожие по размеру решения GPT-5, Claude 4 и других разработчиков.
Инновационная VLM-модель для распознавания текста и парсинга документов, разработанная DeepSeek.ai в рамках исследований возможностей представления информации через визуальную модальность. Модель предлагает уникальный подход: вместо традиционных текстовых токенов, она использует визуальные токены для кодирования информации из документов,сжимая текст в 10–20 раз, при этом достигая точности OCR 97%.
Модель Krea Realtime 14B представляет собой дистилляцию модели Wan 2.1 14B (разработанной Wan-AI) для задач генерации видео на основе текста. Она была преобразована в автокорректирующуюся (autoregressive) модель с помощью метода Self-Forcing, что позволило достичь скорости инференса 11 кадров в секунду при использовании 4 шагов вывода на одном GPU NVIDIA B200.
Компактная 4-миллиардная модель, сохраняющая полный функционал серии Qwen3-VL: скорость ответов, высококачественное мультимодальное понимание с пространственными и временными отметками. При этом существенно снижает требования к оборудованию – при использовании половины от нативно поддерживаемого контекста в 256K, модель стабильно работает всего на одной GPU с 24GB памяти.
Небольшая dense модель с 8-миллиардами параметров и усиленными возможностями пошагового рассуждения, специализирующаяся на сложных мультимодальных задачах, требующих глубокого анализа и отличного понимания визуального контента. Нативно поддерживает контекст в 256K токенов. Практически по всем ключевым бенчмаркам превосходит такие известные модели как Gemeni-2.5 Flash-Lite и GPT-5 nano high.
Мультимодальная dense модель с 8 миллиардами параметров, оптимизированная для диалога и следования инструкциям, обеспечивающая понимание изображений, видео и текста. Поддерживает нативный контекст 256K токенов, расширенное OCR на 32 языках и работу визуального агента. Демонстрирует конкурентные результаты с более крупными моделями на ключевых бенчмарках.
Reasoning-оптимизированная версия 4B модели серии Qwen3-VL с контекстом 256К (и возможностью увеличения до 1М). Вывод ответа всегда задействует цепочки рассуждений, что позволяет решать непростые мультимодальные задачи, но сказывается на скорости. Демонстрирует производительность лишь немногим уступающую Qwen3-8B-VL при гораздо более скромных аппаратных требованиях.
Флагманская MoE модель линейки Granite-4.0 от IBM с 32B параметров (9B активных), архитектурой Mamba-2/трансформер. Обеспечивает производительность уровня крупных моделей при снижении требований к памяти на 70% и удвоенной скорости инференса. Оптимизированная для корпоративных задач RAG и агентских рабочих процессов.
Компактная, гибридная модель архитектуры mamba2/transformers в сочетании с mixture of experts, где активируется только 1 млрд из 7 млрд параметров. Разработана для быстрого выполнения задач в том числе на периферийных устройствах и локального развертывания. Требует всего 8 ГБ памяти (в 8-битном формате) и обеспечивает высокую производительность в function calling при минимальных затратах ресурсов.